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第 一 章 ”摘要 


随 着 数字 化 浪潮 的 推进 ，Mashup 技术 通过 融合 异 质 Web API， 为 开发 者 提供 了 创 
造 独特 增值 服务 的 可 能 。 然而，Web API 数量 的 激增 使 得 开发 者 在 构建 Mashup 应 用 时 
面临 API 兼 容 性 及 业务 逻辑 协同 的 挑战 , API 的 适 配 搜索 变 得 耗 时 且 困 难 。 针 对 这 些 问 
Bi. 本 文 提出 了 一 种 创新 的 Mashup 组 合 推荐 算法 FAR (Fast API Recommendation), 该 
算法 基于 静态 中 心 标注 法 ， 通 过 构建 高 效 的 离线 索引 结构 和 独特 的 子 图 评价 机 制 ， 显 
著 提 升 了 推荐 系统 的 准确 率 。 同 时 ，FAR 算法 采用 柱状 搜索 策略 ， 优 化 了 子 图 生成 速 
度 ， 并 避免 了 过 分 强调 API 兼容 性 而 忽略 实用 性 的 问题 ， 从 而 提高 了 推荐 效率 。 此 外 ， 
本 文 还 提出 了 根 节点 优化 策略 与 子 图 权重 优化 策略 ， 为 Mashup 推荐 领域 的 研究 提供 
TAWAR. 在 针对 mashup 数据 集 的 详细 实验 评估 中 ,FAR 算法 在 平均 运行 时 间 、 推 
荐 节点 数 、 精 确 度 (MP)、 召 回 率 (MR) 以 及 归 一 化 折扣 累积 增益 (NDCG) 等 方面 
均 优 于 当前 主流 的 API 推荐 与 图 搜索 算法 ， 显 示 出 更 高 的 实用 性 和 性 能 优越 性 。 
关键 字 : Mashup 技术 ; Web API; API 推荐 系统 ; 静态 中 心 标注 法 


1.1 Abstract 


With the advancement of digitalization, Mashup technology has provided developers with 
the opportunity to create unique value-added services by integrating heterogeneous Web APIs. 
However, the surge in the number of Web APIs has posed challenges for developers in en- 
suring API compatibility and coordinating business logic during the construction of Mashup 
applications, making the search for compatible APIs time-consuming and difficult. To ad- 
dress these issues, this paper proposes an innovative Mashup combination recommendation 
algorithm, FAR (Fast API Recommendation), which is based on the static centroid annota- 
tion method. By constructing an efficient offline indexing structure and a unique subgraph 
evaluation mechanism, FAR significantly improves the accuracy of the recommendation sys- 
tem. Furthermore, FAR adopts a columnar search strategy, optimizing the speed of subgraph 
generation and avoiding the problem of overemphasizing API compatibility while neglecting 
practicality, thereby enhancing recommendation efficiency. Additionally, this paper also pro- 
poses a root node optimization strategy and a subgraph weight optimization strategy, providing 
valuable insights for research in the field of Mashup recommendation. In detailed experimental 
evaluations using a Mashup dataset, FAR outperforms current mainstream API recommenda- 


tion and graph search algorithms in terms of average running time, recommended node count, 
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precision (MP), recall (MR), and normalized discounted cumulative gain (NDCG), demon- 
strating its higher practicability and performance superiority. 

Keywords: Mashup technology; Web API; API recommendation; Static centrality annotation 
method. 


第 二 章 引言 


21 ”研究 背景 


随 着 互联 网 技术 的 飞速 发 展 ， 网 络 应 用 和 服务 呈现 出 爆炸 性 增长 ,推动 了 Mashup 
技术 的 诞生 与 流行 。 作 为 一 种 轻 量 级 的 服务 组 合 模式 ，Mashup 的 核心 在 于 将 支持 Web 
API 的 应 用 进行 有 机 组 合 ， 进 而 创造 出 全 新 的 增值 服务 ,不 仅 提升 了 资源 利用 率 ， 更 极 
大 地 丰富 了 网 络 应 用 的 功能 与 用 户 体验 趾 。 

从 发 展 历程 来 看 ，Mashup API 经 历 了 由 简单 到 复杂 、 由 单一 到 多 元 的 演变 。 其 最 
初 应 用 主要 集中 在 地 图 、 新 闻 、 社 交 媒 体 等 领域 ， 例 如 将 地 图 API 与 房地产 数据 相 结 
合 ， 生 成 房产 信息 地 图 等 二 。 随 着 技术 的 不 断 进步 和 开放 API 数量 的 增多 ，Mashup 
的 应 用 范围 已 逐渐 扩展 至 教育 、 医 疗 、 金 融 、 娱 乐 等 多 个 行业 ， 成 为 网 络 应 用 开发 不 
可 或 缺 的 一 部 分 呈 。 

然而 ， 随 着 越 来 越 多 的 企业 和 部 门将 服务 、 数 据 或 资源 以 API 的 形式 发 布 到 互联 
网 上 ，API 数量 急剧 增加 ， 形 成 了 一 个 庞大 而 复杂 的 API 服务 集合 。 当 开发 者 尝试 将 
这 些 API 组 合 起 来 构建 Mashup 应 用 时 ， 他 们 常常 面临 兼容 性 问题 ， 如 不 同 的 认证 机 
制 、 数 据 格式 、 请 求 /响应 协议 以 及 版 本 差异 等 ， 这 些 都 增加 了 集成 的 复杂 性 和 风险 站 。 

此 外 ， 即 使 找到 了 技术 上 兼容 的 API， 开 发 者 还 需 考虑 它们 的 业务 逻辑 是 否 契 合 。 
例如 ,一 个 旅游 规划 应 用 可 能 需要 集成 地 图 服务 、 酒 店 预订 、 航 班 查询 等 多 个 API。 这 
些 API 不 仅 需要 能 够 相互 通信 ， 还 需要 在 业务 流程 上 形成 团 环 ， 以 确保 用 户 体验 的 流 
rE! 

由 于 缺乏 统一 的 标准 和 有 效 的 搜索 、 评 佑 工具 , 面 对 海 量 的 候选 API, FRATE Í 
选 和 测试 API 时 通常 需要 花费 大 量 时 间 和 精力 ， 这 不 仅 降 低 了 开发 速度 ， 也 增加 了 项 
目 成 本 。 因 此 ， 如 何 高 效 地 在 海量 API 中 找到 兼容 且 符 合 业务 需求 的 API 已 成 为 当前 
Mashup 开发 领域 波 待 解决 的 问题 "|。 

而 在 Mashup API 的 研究 与 实践 中 , 科研 人 员 面 临 着 诸多 难点 和 挑战 ， 其 中 推荐 搜 
索 时 间 复 杂 度 和 推荐 精准 度 尤 为 突出 。 

一 、 推 荐 搜索 时 间 复 杂 度 高 

随 着 API 数 量 的 不 断 增长 , 如何 高 效 地 从 海量 API 中 搜索 并 推荐 出 符合 需求 的 API 
成 为 了 一 个 重要 问题 。 现 有 的 API 推荐 系统 普遍 面临 搜索 时 间 复 杂 度 高 的 问题 ， 这 在 
一 定 程 度 上 制约 了 其 应 用 效果 。 目 前 ， 主 流 的 API 推荐 方法 多 采用 基于 动态 规划 的 斯 
坦 纳 树 生 长 算法 , 然而 , 在 众多 的 候选 API 中 寻找 两 个 节点 间 的 最 短路 径 耗 时 较 长 。 同 
时 ，API 之 间 的 关联 性 和 组 合 性 也 增加 了 搜索 推荐 的 难度 ， 使 得 搜索 过 程 变 得 更 加 耗 
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时 5 所 。 为 提高 搜索 效率 ， 研 究 者 们 提出 了 各 种 优化 方法 ， 如 基于 语义 的 API RRO, 
利用 机 器 学 习 技术 改进 搜索 算法 忆 站 等。 然而 ， 这 些 方法 在 实际 应 用 中 面临 API 的 描 
述 、 功 能 等 信息 多 样 且 复杂 的 问题 ， 导 致 搜索 算法 需要 处 理 大 量 的 数据 和 信息 ， 需 要 
进一步 的 研究 和 改进 (1。 

二 、 推 荐 精准 度 较 低 

除了 面临 搜索 时 间 复 杂 度 高 的 问题 外 ，Mashup API 推荐 还 面临 着 推荐 精准 度 低 的 
难题 。 鉴 于 每 个 功能 通常 与 海量 的 API 相关 联 ， 实 现 特定 功能 组 合 的 API 组 合 方案 繁 
多 , 导致 现 有 的 API 推 荐 系统 常常 难以 精确 地 推荐 出 符合 开发 者 实际 需求 的 APIC 。 这 
种 情况 不 仅 严 重 拖 慢 了 开发 者 的 开发 进度 ， 还 对 Mashup 应 用 的 整体 质量 和 用 户 体验 
产生 了 不 良 影响 。 为 了 提高 API 推荐 的 精准 度 ， 研 究 者 们 采用 了 多 种 方法 ， 如 基于 
用 户 行为 的 推荐 、 基 于 内 容 的 推荐 以 及 协同 过 滤 推 荐 等 。 虽 然 这 些 方法 在 一 定 程度 上 
提升 了 推荐 的 准确 性 , 但 仍然 面临 着 诸如 冷 启动 、 数 据 稀 豆 性 等 问题 。 男 外 ,， 有 些 学 者 
尝试 使 用 关键 词 搜索 方法 ， 根 据 API 组 合 间 的 兼容 性 来 推荐 API 组 合 ， 但 却 未 能 充分 
考虑 所 推荐 API 的 实际 应 用 场景 和 意义 1*' 1。 这 就 导致 了 即便 API 组 合 兼容 度 较 高 ， 
实际 使 用 中 却 并 不 符合 开发 者 预期 ， 命 中 率 较 低 。 

因此 ， 在 Mashup API 研究 领域 ， 如 何在 显著 提升 推荐 效率 的 同时 ， 进 一 步 提高 
API 推荐 的 精准 度 ， 确 保 推 荐 的 API 既 高 度 兼 容 又 能 精准 匹配 开发 者 的 实际 需求 ， 仍 
是 一 个 吸 待 解决 的 关键 问题 。 

为 解决 这 一 挑战 ， 本 文 提 出 了 一 种 创新 的 算法 。 该 算法 不 仅 深入 考虑 了 API 之 间 
的 兼容 性 以 及 实际 业务 逻辑 ， 而 且 通 过 优化 算法 结构 ， 显 著 降低 了 时 间 复 杂 度 。 通 过 
实施 这 一 算法 ， 我 们 能 够 在 保证 运行 时 间 大 幅 缩 短 的 同时 ， 显 著 提高 API 推荐 的 准确 
性 ， 为 用 户 推荐 出 既 符 合 实际 业务 需求 又 高 度 兼容 的 API 组合 。 


22 ”文献 综述 
2.2.1 基于 关键 词 的 API 推荐 

Web API 推荐 作为 近年 来 的 研究 热点 ， 其 核心 目标 在 于 根据 用 户 的 特定 功能 需求 ， 
为 开发 者 精准 推荐 合适 的 Web API。 这 种 推荐 方法 对 于 提升 开发 者 的 工作 效率 、 增 强 
软件 质量 和 兼容 性 具有 至 关 重 要 的 作用 。 随 着 Web API 在 各 类 应 用 中 的 广泛 运用 ， 如 
何 确保 推荐 的 准确 性 和 高 效 性 成 为 了 该 领域 研究 的 关键 所 在 。 

2021 年 ， 学 术 界 对 Web API 推荐 的 研究 取得 了 显著 进展 。 其 中 ， 一 篇 论文 深入 探 
讨 了 基于 关键 词 驱动 的 推荐 方法 ， 强 调 了 全 面 覆 盖 API 的 重要 性 。 该 方法 通过 精准 捕 
捉 关 键 词 与 API 之 间 的 关联 ， 为 开发 者 提供 了 更 为 全 面 且 精 准 的 推荐 结果 。 实 验 报告 
表明 ， 该 方法 在 有 效 性 和 效率 上 都 展现 出 了 卓越 的 性 能 1 站。 
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同年 ， 另 一 项 研究 则 提出 了 一 个 综合 性 的 个 性 化 推荐 框架 。 该 框架 充分 利用 了 开 
发 者 的 历史 调用 记录 ， 并 结合 认 知 知识 ， 为 开发 者 提供 了 更 为 贴 合 其 需求 的 推荐 服务 。 
该 论文 进一步 提出 了 两 种 个 体 模型 和 集成 模型 ， 通 过 联合 矩阵 分 解 和 认 知 挖掘 等 技术 
手段 ， 实 现 了 对 现 有 推荐 方法 的 性 能 提升 b9。 

进入 2022 年 ，Web API 推 荐 技术 的 研究 继续 深入 。Lianyong 等 人 提出 了 一 种 针对 
Web API 关联 图 的 War 方法 ， 该 方法 将 Web API 的 发 现 、 验 证 和 选择 操作 融 为 一 体 ， 
为 开发 者 提供 了 一 个 更 为 高 效 且 便捷 的 推荐 流程 由。 同时 ，Wenwen 等 人 也 提出 了 一 种 
新 颖 的 高 效 Web API 推荐 方法 (E-War) ， 利 用 局 部 敏感 哈 希 技术 为 开发 者 推荐 理想 的 
Web API 网 络 P01。 此 外 ，Junwu 等 人 则 介绍 了 一 种 基于 集成 的 方法 ， 该 方法 通过 多 特 
征 模型 整合 了 机 器 学 习 和 深度 学 习 的 优势 ， 为 Open APIs 的 推荐 提供 了 强大 的 技术 支 
gen, 

同年 ,Hao Wu 等 人 提出 了 一 种 基于 多 模型 融合 和 多 任务 学 习 的 神经 框架 (MTFM)， 
旨 在 解决 Web APL 数量 增长 导致 的 Mashup 创作 中 API 选择 困难 的 问题 。 该 框架 通过 
结合 语义 分 析 和 特征 交互 ， 有 效 提升 了 API 推荐 的 准确 性 和 效率 ， 并 通过 实验 验证 了 
其 在 推荐 性 能 上 的 优势 P21。 

到 了 2023 年 ，Web API 推荐 技术 的 研究 继续 取得 新 的 突破 。Huaizhen 等 人 提出 了 
Dirar 方法 ， 旨 在 检索 和 推荐 用 于 Mashup 创建 的 Web API 组 ， 以 满足 软件 开发 者 在 创 
建 应 用 程序 时 的 多 样 化 需求 9。 另 一 项 研究 则 专注 于 解决 为 个 性 化 和 兼容 的 移动 应 用 
开发 提供 Web API 关联 图 的 挑战 ， 通 过 创新 的 技术 手段 为 开发 者 提供 了 更 为 精准 和 实 
用 的 推荐 服务 54。 此 外 ， 还 有 一 篇 论文 介绍 了 一 种 新 的 矩阵 分 解 (ME) 模型 ， 该 模型 
能 够 准确 预测 用 户 和 Web API 之 闻 的 关系 ， 为 个 性 化 推荐 提供 了 有 力 的 数据 支持 3。 

经 过 综合 对 比 和 分 析 相关 文献 ， 我 们 可 以 得 出 ， 这 些 研究 均 集 中 于 探讨 如 何 通过 
更 高 效 的 Web API 推荐 方法 来 促进 开发 者 的 工作 效率 与 软件 质量 的 提升 。 这 些 方法 涵 
盖 了 从 关键 词 驱动 的 推荐 到 利用 开发 者 历史 调用 记录 的 个 性 化 推荐 框架 ， 旨 在 通过 精 
确 匹配 开发 者 需求 与 合适 的 Web API 来 优化 开发 流程 。 然 而 ， 在 实际 应 用 中 ， 特 别 是 
面 对 大 规模 数据 处 理 时 ， 一 些 推荐 算法 显示 出 了 较 高 的 时 间 复杂 度 ， 进 而 影响 了 计算 
效率 。 具 体 来 说 ， 如 基于 矩阵 分 解 的 方法 (例如 MP 模型 ) 或 处 理 复杂 APL 关联 图 所 
需 的 方法 (如 War 方法 )， 在 处 理 庞大 数据 集 时 ， 其 效率 受到 明显 影响 。 

进一步 分 析 表 明 ， 以 API 间 兼 容 性 为 主要 考虑 因素 的 关键 词 匹配 推荐 方法 在 实际 
应 用 中 可 能 不 足以 全 面 理解 开发 者 的 综合 需求 。 虽 然 此 方法 推荐 的 API 组 合 有 较 高 兼 
容 性 ， 但 由 于 未 充分 考虑 APL 的 具体 应 用 意图 和 场景 推荐 结果 可 能 与 开发 者 的 实际 
需求 不 完全 吻合 。 这 种 方法 的 局 限 性 不 仅 可 能 导致 推荐 系统 的 命中 率 下 降 ， 还 有 可 能 
对 软件 产品 的 功能 性 和 终端 用 户 的 满意 度 产生 负面 影响 。 因 此 ， 推 荐 系统 的 设计 需要 
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超越 简单 的 兼容 性 匹配 ， 通 过 深入 分 析 和 理解 开发 者 需求 的 复杂 性 和 多 样 性 ， 实 现 更 
加 精确 和 个 性 化 的 API 推荐 。 


222 ”组 斯 坦 纳 树 算法 

斯 坦 纳 树 问题 作为 组 合 优化 领域 的 关键 议题 ， 致 力 于 寻求 图 中 权重 和 最 小 的 最 小 
生成 树 ， 对 于 物流 、 交 通 网 络 设计 等 领域 具有 广泛 的 应 用 价值 。 然 而 ， 由 于 其 NP-hard 
属性 ， 直 接 解决 斯 坦 纳 树 问题 极 具 挑 战 性 。 因 此 ， 研 究 者 们 不 断 提出 启发 式 算法 和 近 
似 算 法 以 应 对 这 一 难题 。 

2021 年 ， 一 项 重要 研究 通过 动态 规划 等 方法 深入 探讨 了 顶点 无 权 图 中 实 值 图 的 斯 
坦 纳 树 问 题 。 该 算法 无 需 近 似 保 证 ， 其 参数 介 于 2 和 YY 之 间 ， 并 在 不 同 场景 下 均 展 现 
出 卓越 性 能 ， 显 著 超 越 了 当时 的 技术 水 平 C9 。 

2022 年 ， 斯 坦 纳 树 问题 的 研究 取得 了 进一步 突破 。 研 究 不 仅 探索 了 非 负 边 权 图 中 
群 斯 坦 纳 树 (GST) 问题 的 解决 方案 ， 还 结合 了 变 邻 域 搜 索 (VNS) 等 方法 的 元 启发 式 
框架 ， 展 现 出 优 于 遗传 算法 的 性 能 中 。 同 年 ，Shuang 等 研究 者 提出 了 三 种 近似 算法 ， 
成 功 解决 了 每 个 兴趣 点 (POIs) 的 斯 坦 纳 树 问题 ， 并 在 寻找 概率 群 斯 坦 纳 树 的 任务 上 
超越 了 现 有 先进 方法 站 。 此 外 ，Guy 等 人 针对 DB-GST 问题 一 一 即 在 一 个 无 向 图 中 寻 
找 至 少 包含 群 S 中 一 个 顶点 的 成 本 最 小 的 树 的 问题 一 一 提出 了 一 种 双 标 准 近 似 法 ， 在 
树 的 成 本 和 叶片 比率 上 均 实 现 了 双 标 准 近似 艰 ]。 

进入 2023 年 ， 研 究 者 们 将 斯 坦 纳 树 问 题 的 研究 扩展 到 时 间 图 中 ， 为 解决 社交 网 络 
中 的 时 间 信 息 问 题 提供 了 新 的 视角 。 他 们 引入 的 动态 规划 算法 不 仅 证 明了 有 效 解决 方 
案 的 必要 性 ， 还 在 真实 时 间 网 络 中 验证 了 其 效率 和 有 效 性 59。 

2024 年 ， 研 究 焦 点 转 回 社会 劳动 分 工 中 的 多 属性 群 决策 问题 。 研 究 者 提出 的 多 属 
性 群 决策 方法 , 结合 理论 、Ster 点 约束 和 植物 生长 模拟 算法 , 不 仪 展现 了 一 种 全 面 的 评 
全 决策 方法 ， 还 通过 设计 的 植物 生长 模拟 算法 获得 了 最 优选 择 。 实 际 案例 验证 了 该 方 
法 的 有 效 性 和 合理 性 5。 

尽管 先前 的 研究 在 斯 坦 纳 树 问 题 上 通过 动态 规划 和 元 启发 式 方法 取得 了 一 定 进展 ， 
但 在 处 理 大 规模 图 数据 时 ， 这 些 方法 在 计算 效率 方面 仍 存在 显著 不 足 。 动 态 规划 方法 
虽 理 论 上 能 确保 最 优 解 , 但 由 于 其 高 时 间 复 杂 度 , 实际 应 用 中 效率 受 限 ; 而 元 启发 式 方 
法 虽 速 度 快 , 但 难以 保证 解 的 全 局 最 优 性 ， 且 在 复杂 情境 下 性 能 易 受 影响 。 因 此 ， 对 于 
即时 性 Web APIs 推荐 ， 人 迫切 需要 一 种 快速 且 高 效 的 组 斯 坦 纳 树 搜 索 方 式 以 提升 效率 。 


2.23 ”基于 图 搜索 的 服务 组 合 方法 
基于 图 的 服务 组 合法 , 作为 一 项 新 兴 的 研究 领域 , 主要 采用 图 论 的 理论 与 方法 , B 
在 探索 服务 组 合 问题 的 解决 之 道 。 在 现实 应 用 场景 中 ， 服 务 组 合 往往 牵涉 众多 服务 与 
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用 户 的 多 样 化 需求 ， 如 何 高 效 地 实现 服务 的 有 效 组 合 ， 以 满足 用 户 的 需求 ， 成 为 了 研 
究 者 们 必须 面 对 的 重要 课题 。 

2020 年 ， 范 国 栋 及 其 团队 针对 服务 组 合 问题 ， 提 出 了 一 种 创新 的 基于 有 向 二 分 图 
的 服务 组 合 图 模型 。 通 过 精巧 地 构建 服务 组 合 图 ， 并 结合 最 少 服务 组 合 查询 与 Dijkstra 
搜索 算法 ， 该 团队 成 功 地 寻找 到 了 最 优 服务 组 合 的 解决 方案 。 此 方法 不 仅 显 著 提 升 了 
服务 组 合 的 准确 性 ， 还 有 效 降低 了 计算 的 复杂 性 ， 为 解决 服务 组 合 问题 提供 了 一 种 高 
效 的 工具 中 1。 

2021 年 , Jiang 等 研究 人 员 推 出 了 一 球 融 合 知识 图 谱 与 协同 过 滤 找 术 的 服务 推荐 模 
型 。 该 模型 通过 深入 探索 API 与 Mashup 之 间 的 内 在 联系 ， 有 效 地 缓解 了 数据 稀 蔚 问 
题 ， 从 而 提升 了 服务 推荐 的 准确 度 F  。 同 年 ，Shi 及 其 团队 聚焦 于 Web IRI Pl? NHK 
入 问题 ， 提 出 了 一 种 预测 Mashup 与 API 间 潜 在 连接 的 概率 主题 模型 。 继 而 ， 他 们 开 
发 了 服务 图 卷 积 网 络 (Service-GCN) ， 以 学 习 服 务 的 向 量 表示 ， 该 技术 在 服务 分 类 与 
Mashup 聚 类 任务 中 展现 了 优异 的 表现 中 1。 

至 2023 年 , Chen 等 人 创新 性 地 定义 了 服务 -关键 词 相关 图 (SKCG), 以 捕 提 服务 与 
关键 词 之 间 的 关系 及 服务 间 的 兼容 性 。 他 们 提出 了 一 种 基于 关键 词 的 深度 强化 Steiner 
树 搜索 方法 (K-DRSTS), EEJJ Mashup 创建 推荐 服务 ， 并 通过 实际 世界 数据 集 的 实 
验 ,证 明了 其 方法 的 有 效 性 站]。 

尽管 基于 图 的 服务 组 合 方法 在 解决 服务 组 合 问题 上 取得 了 令 人 瞩目 的 成 果 ， 但 该 
方法 仍 面 临 一 些 不 容 忽 视 的 挑战 与 局 限 性 。 具 体 而 言 ， 构 建 和 管理 大 规模 服务 组 合 图 
需要 庞大 的 计算 资源 ， 并 需要 借助 高 效 的 算法 来 支持 实时 的 服务 组 合 和 推荐 。 为 了 进 
一 步 提升 服务 组 合 的 效率 ， 迫 切 需要 设计 一 种 更 为 高 效 的 图 搜索 方法 ， 能 够 快速 找到 
最 优 的 服务 组 合 方案 ， 以 实现 更 为 精准 和 实时 的 服务 组 合 推荐 。 


第 三 章 ”模型 介绍 


3.1 “基于 兼容 性 的 API 推荐 与 高 效 搜索 策略 

Mashup 技术 旨 在 通过 互相 兼容 的 API， 实 施 一 系列 多 元 化 的 功能 ， 每 一 种 功能 均 
对 应 着 一 个 庞大 的 API 集 群 。 成 功 地 锁定 候选 功能 API 集群 之 后 , 挑选 出 最 适宜 的 API 
节点 成 为 了 关键 性 的 任务 。 

本 文 深入 探讨 了 基于 兼容 性 的 API 推荐 问题 。 在 API 组 合 的 过 程 中 ， 各 个 API 并 
非 孤 立 存在 ,而 是 需要 相互 协作 以 达成 特定 功能 。 选 定 实 现 这 些 功能 的 API 节点 后 , X 
键 在 于 确保 API 之 间 的 互 操作 性 ， 并 通过 适当 的 连接 节点 将 这 些 API 串联 起 来 。 这 一 
过 程 通常 涉及 在 由 mashup 数据 集 构 建 的 知识 图 谱 中 寻找 最 优 的 斯 坦 纳 树 。 

但 在 斯 坦 纳 树 的 构建 过 程 中 ， 随 着 节点 数目 的 激增 ， 搜 索 空间 的 复杂 度 呈 现 指数 
级 的 增长 ， 这 对 搜索 算法 的 效率 提出 了 更 高 的 挑战 。 因 此 ， 连 切 需 要 设计 出 一 套 高 效 
的 算法 及 策略 ， 以 在 庞大 的 搜索 空间 中 快速 精准 地 锁定 合适 的 API 节点 ， 从 而 优化 功 
能 实现 和 提升 系统 运行 效率 。 

正 是 基于 这 样 的 需求 ， 本 研究 致力 于 通过 优化 查询 策略 与 子 图 权重 度量 方法 来 解 
决 这 一 挑战 。 本 文 的 研究 成 果 主 要 包括 三 个 方面 : 

1) 构建 高 效 离线 索引 以 加 速 服 务 组 合 搜索 : 为 了 显著 减少 搜索 时 间 ， 我 们 构建 了 
离线 索引 结构 ， 该 结构 能 够 在 不 牺牲 准确 性 的 前 提 下 ， 极 大 地 提升 搜索 效率 。 

2) 基于 优化 子 图 权重 和 搜索 策略 的 关键 API 选取 : 通过 优化 子 图 权重 度量 方式 与 
搜索 策略 ,我 们 能 够 快速 且 准 确 地 识别 出 与 用 户 需求 最 为 匹配 的 API， 从 而 确保 了 API 
组 合 的 准确 性 和 有 效 性 。 

3) 面向 用 户 场景 的 API 子 图 扩展 策略 : 我 们 提出 了 子 图 的 扩展 生成 策略 ， 这 一 策 
略 不 仅 考虑 到 了 API 的 兼容 性 ， 还 充分 考虑 了 用 户 的 实际 应 用 场景 。 


3.2 FAR 算法 API 推荐 流程 
3.2.1 Hub Labeling 离线 索引 建立 


FAR 算法 在 实现 过 程 中 ， 关 键 步 又 在 于 计算 两 点 间 的 最 短 距 离 及 确定 最 短路 径 。 
然而 ， 当 应 用 于 大 型 知识 图 谱 时 ， 采 用 传统 的 在 线 计算 方法 会 因 节 点 和 边 的 数量 巨大 
而 导致 计算 耗 时 较 长 ， 无 法 满足 实际 应 用 中 对 于 响应 速度 的 高 要 求 。 同 时 ， 千 选择 将 
任意 点 对 之 间 的 距离 和 路 径 信 息 预 先 存 储 ， 虽 然 可 以 显著 提高 查询 速度 ， 但 这 种 方式 
将 带 来 存储 空间 的 急剧 增长 ， 特 别 是 在 资源 有 限 的 情况 下 ， 这 种 策略 并 不 切实 际 。 
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为 了 在 时 间 效 率 和 空间 占用 之 间 找 到 最 佳 平衡 点 , 本 文 算法 引入 中 心 标注 法 (Hub 
Labeling) 进行 优化 处 理 。 中 心 标签 优化 是 图 数据 库 领域 的 一 种 关键 技术 ， 其 原理 在 于 
通过 为 网 络 中 的 一 部 分 关键 节点 分 配 “ 中 心 ”标签 ， 并 利用 这 些 中 心 节点 与 其 他 节点 
的 连接 关系 来 加 速 大 型 网 络 中 的 距离 查询 。 这 种 方法 的 成 功 与 否 ， 关 键 在 于 如 何 有 效 
地 选择 和 标记 中 心 节 点 ， 以 及 如 何 有 效 利 用 这 些 标签 来 提升 查询 性 能 。 

近年 来 ， 中 心 标签 优化 算法 在 学 术 界 备 受 瞩目 ， 相 关 研 究 持续 深入 。2020 年 的 一 
篇 论文 提出 了 一 种 针对 图 分 析 的 中 心 标记 方案 ， 通 过 精确 计算 s 和 t 之 间 的 最 短路 径 ， 
有 效 提升 了 搜索 效率 。 该 研究 不 仅 优 化 了 搜索 算法 ， 还 引入 了 中 心 推动 和 图 缩减 技术 ， 
大 幅 减 小 了 索引 大 小 ， 从 而 显著 降低 了 存储 和 计算 成 本 591。 

进入 2022 年 ， 关 于 中 心 标签 算法 的 研究 进一步 拓展 。 一 篇 论文 提出 了 一 种 创新 的 
2-Hop 标签 算法 ,专门 用 于 计算 最 短 环 路 (简称 CSC). 该 算法 采用 动态 更 新 的 CSC R 
引 ， 显 著 提 高 了 查询 效率 ， 尤 其 在 处 理 边 插入 时 展现 出 卓越 的 性 能 中 。 同 年 ， 另 一 篇 
论文 则 介绍 了 一 种 可 定制 的 中 心 标签 变 体 ， 特 别 适 用 于 路 线 规划 中 的 边 成 本 问题 。 该 
研究 不 仪 提 出 了 一 个 近似 算法 来 优化 平均 标签 大 小 ， 还 提供 了 高 效 的 定制 算法 ， 以 满 
足 不 同 场景 下 的 需求 2 。 

此 外 ，Wentao 等 人 在 2022 年 提出 了 一 种 并 行 最 短 距 离 标签 (PSL) 方案 ， 专 门 针 
对 小 世界 网 络 进 行 优化 。 该 方案 提出 了 有 效 的 索引 压缩 技术 ， 通 过 显 车 减 小 索引 大 小 
来 提高 查询 效率 。 实 验 结果 显示 ， 在 十 亿 规 模 的 图 上 ， 该 方案 表现 出 高 效 性 能 ， 同 时 
在 多 核 环境 中 实现 了 接近 线性 的 加 速效 果 ， 索 引 大 小 减少 了 高 达 94900771, 

2023 年 ， 一 项 新 的 研究 突破 引起 了 广泛 关注 。 一 篇 论文 介绍 了 一 种 全 新 的 层次 化 
2-Hop 索引 (H2H-Index), 特别 适用 于 长 距离 查询 。 该 算法 基于 距离 保持 图 构建 H2HL- 
Index， 相 较 于 现 有 技术 ， 其 查询 处 理 速 度 提 升 了 数 个 数量 级 ， 为 大 规模 网 络 的 高 效 查 
HERTAN 

这 些 研究 工作 从 理论 上 证 明了 中 心 标签 优化 算法 的 有 效 性 和 优越 性 ， 共 同 推动 了 
中 心 标签 优化 在 大 型 知识 图 谱 等 图 数据 库 应 用 领域 的 发 展 和 应 用 。 

中 心 标签 优化 算法 的 核心 组 成 部 分 是 静态 的 HL 索引 结构 ， 该 结构 则 在 为 图 数据 
库 提供 离线 的 索引 支持 。 通 过 利用 这 一 索引 结构 ， 在 计算 任意 两 个 节点 4 和 v 之 间 的 
距离 dist(u, v) 时 ， 无 需 再 频繁 地 遍历 原 图 ， 从 而 极 大 地 提升 了 计算 效率 。 通 过 HL it 
算 两 点 间 最 短 距离 过 程 如 算法 1 所 示 : 

算法 1: 建立 HL 

输入 : 节点 序号 4、v，api 间 最 短 距离 标签 集合 L 

输出 : 节点 4、v 间 最 短 距离 

1 : dist, — 十 0 将 4、v 间 初始 距离 设置 为 正 无 穷 

10 


第 三 章 ” 模 型 介绍 


2 :if Lin L(v) = do WE LA 和 Lv 的 交集 为 空 则 返回 无 穷 大 
3: return dist, w 
4 : for each ^ € L(u) N L(v)do 找 两 节点 间 最 短 距离 所 经 过 的 中 间 节 点 


5: if dist > dist(u,h)+dist(v,h) do 如 果 u 和 v 到 标签 节点 的 距离 之 和 小 于 当前 值 


则 进行 更 新 

6: mid — h 

7: dist = dist (u, h) + dist (v, h) 
8: endif 

9 : end for 


10 : return dista ,) 

XH, dist(u, v) 代表 节点 u 和 节点 h 之 间 的 最 短 距 离 。disttu, h) 和 dist(v, h) 以 及 对 
应 的 中 心 节 点 h 都 被 预先 存储 在 LW) 和 LO) 中 。 这 种 预先 计算 并 存储 的 方式 大 大 加 速 
了 查询 过 程 。 

为 了 更 精确 地 刻画 节点 在 图 结构 中 的 关键 位 置 ， 本 文 借助 SHL 算法 ， 引 入 介 度 中 
心性 作为 节点 的 权重 ， 并 按照 此 权重 的 递减 顺序 对 节点 进行 排序 。 

介 度 中 心性 作为 一 种 有 效 的 节点 重要 性 度量 指标 ， 能 够 捕捉 到 节点 在 图 结构 中 的 
关键 位 置 。 通 过 计算 节点 的 介 度 中 心性 ， 并 将 节点 按照 其 介 度 中 心性 值 进行 递减 排序 ， 
我 们 能 够 优先 处 理 那 些 在 网 络 中 起 到 桥梁 作用 的 节点 。 这 些 节 点 更 有 可 能 出 现在 多 对 
节点 之 间 的 最 短路 径 上 ， 因 此 在 建立 索引 时 具有 更 高 的 优先 级 。 

具体 来 说 ， 节 点 的 介 度 中 心性 定义 为 所 有 节点 对 之 间 的 最 短路 径 中 经 过 该 节点 的 
路 径 数 与 所 有 最 短路 径 数 之 比 。 数 学 表达 式 如 下 : 


bc(v) = 
steV\{v} f 
HEF, oy 表示 从 节点 s 到 节点 t 的 最 短路 径 的 数量 ， 而 cv(v) 则 表示 这 些 最 短路 
径 中 经 过 节点 v 的 路 径 数 。 
利用 介 度 中 心性 建立 HL, 不 仪 减少 了 存储 资源 的 消耗 ， 还 提高 了 搜索 效率 ,使 得 
模型 在 实际 应 用 中 更 加 高 效 和 可 行 上 ]。 建 立 HL 算法 如 算法 2 所 示 。 
算法 2: 建立 HL 
输入 : 知识 图 谱 G = (V. E,W) 
输出 : G 的 静态 HL 
1 : Lov) - Ø forve V 
2 : 按 bc 值 对 V 中 节点 递减 排序 ， 并 对 节点 按照 bc 值 从 大 到 小 重新 编号 
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3 : for i — 1ton do 

4 visited[v] — Oforallu c V 

5:  d[v] < Oandd[v] — œ forallv eV \ {v;} 
6: PO- {vi} 优先 级 为 4[v] 的 优先 级 队列 
7: while PQ Z Ø do 

8 u — PQ.pull() 

9 


visited[u] — 1 


10 : if d[u] < dist(v;, u) then 

11: L,(u) — L; ((u)U {< vj, 0,u >} 

12: for w € N(u) && visited [w] Z 1 do 
1333 if d[u] + weight(u, w) < d[w] then 
14: d[w] © d[u] + weight(u, w) 
15: L,u) — L; (u) U {< vj, d[w], u >} 
16 : end if 

17 : if w ¢ PO then 

18 : P Q.nsert(w) 

19 : end if 

20 : end for 

21 : end if 

22: end while 

23 : end for 


24 : return L, 

TENE, weight(u, w) 被 定义 为 图 中 节点 u 与 节点 w 之 间 的 距离 ， 它 用 于 量化 节点 4 
和 w 之 间 的 兼容 度 。 具 体 地 ， 这 一 距离 值 是 通过 计算 节点 u 和 w 在 mashup 数据 集中 
共同 出 现 次 数 的 倒数 来 确定 的 。 当 weight(u, w) 的 值 越 小 ， 即 意味 着 节点 4u 和 w 之 间 
的 兼容 度 越 高 ， 反 之 则 表明 它们 之 间 的 兼容 度 较 低 。 通 过 这 种 方式 ， 我 们 能 够 有 效 地 
衡量 节点 间 的 相互 关联 程度 ， 为 后 续 的 算法 设计 和 优化 提供 重要 的 依据 。 


3.2.2 ”关键 API 的 选取 


本 文 从 双重 维度 对 子 图 的 质量 进行 了 深入 且 细 致 的 神 析 。 
首先 ， 我们 聚焦 于 算法 所 推荐 的 API 节点 集合 与 用 户 实际 调用 的 API 之 间 的 相似 
度 。 为 了 使 推荐 的 API 更 贴近 用 户 的 实际 和 需求， 我们 致力 于 提升 mashup 结果 的 命中 
率 ， 确 保 子 图 所 包含 的 API 节点 能 够 精准 履 盖 用 户 实际 调用 的 API， 从 而 达成 高 效 且 
12 
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精准 的 服务 匹配 。 

其 次 ， 我 们 深入 探索 了 子 图 中 所 有 节点 间 的 距离 关系 。 为 了 量化 这 一 指标 ， 我 们 
利用 历史 数据 集中 API 的 共同 出 现 频次 来 评估 它们 之 间 的 兼容 性 。 此 方法 之 所 以 合理 ， 
是 因为 频繁 的 共同 出 现 往往 意味 着 这 两 个 API 之 间 具 有 高 度 的 兼容 性 和 协同 作用 。 

在 子 图 权重 的 度量 方法 上 ， 我 们 不 局 限于 仅 关 注 根 节点 与 其 他 节点 兼容 性 ， 而 是 
创造 性 地 提出 了 一 种 全 面 考 量 所 有 节点 间 兼 容 性 的 新 策略 。 这 种 策略 能 够 更 为 准确 地 
捕捉 子 图 的 整体 结构 特征 ， 尤 其 是 其 内 在 的 兼容 性 和 协同 性 ， 从 而 为 后 续 的 API 组 合 
推荐 提供 更 为 精确 且 可 靠 的 依据 。 

综合 上 述 两 个 方面 的 考量 ， 我 们 构建 了 一 个 全 面 而 精准 的 子 图 质量 评估 体系 。 这 
一 体系 不 仅 有 助 于 我 们 更 深入 地 理解 子 图 的 内 在 特性 和 优势 ， 同 时 也 为 后 续 的 API 组 
合 推荐 商定 了 坚实 的 基础 。 

鉴于 API 的 搜索 空间 庞大 ， 遍 历 API 并 计算 所 有 节点 间 的 权重 所 涉及 的 时 间 复 杂 
度 极 高 。 为 了 高 效 且 准确 地 获取 API， 本 文采 用 了 基于 柱状 搜索 (beam search) 的 策 
略 ! 汪 1。 柱 状 搜索 可 视 为 对 贪心 算法 的 优化 与 拓展 ， 它 在 每 一 步 选 择 时 ， 保 留 前 k 个 最 
佳 候选 ， 从 而 在 保证 搜索 结果 的 准确 性 的 同时 ， 提 升 了 搜索 的 效率 。 

除 此 之 外 ， 当 前 Mashup 知识 图 谱 的 构建 方法 主要 依赖 于 计算 两 节点 在 Mashup 数 
据 集中 共同 出 现 次 数 的 倒数 。 虽然 这 种 方法 能 够 在 一 定 程度 上 强调 节点 间 的 兼容 度 , 但 
却 忽视 了 两 节点 与 其 他 节点 连通 性 ， 陷 入 局 部 最 优 解 ， 从 而 可 能 限制 了 子 图 生成 的 整 
体 兼容 度 与 准确 性 。 此 外 ， 现 有 的 Mashup 推荐 算法 往往 忽视 了 API 根 节点 的 选取 方 
式 ， 而 实际 上 ， 选 择 连通 性 较 大 的 节点 作为 根 节点 ， 更 有 可 能 生成 兼容 度 更 高 的 子 图 ， 
从 而 提高 推荐 结果 的 质量 和 准确 性 。 

因此 , 为 了 弥补 这 些 不 足 , 本 文 提出 了 两 个 面向 Mashup 推荐 的 知识 图 谱 权重 优化 
策略 和 根 节 点 选择 优化 策略 。 这 些 策略 旨 在 进一步 提升 知识 图 谱 的 构建 质量 ， 优 化 根 
节点 的 选择 方式 ， 从 而 提高 推荐 算法 的 性 能 和 准确 性 。 具 体 的 API 选择 算法 实现 如 算 
法 3 所 示 。 

算法 3: 关键 API 选择 算法 

输入 : 候选 功能 API 集合 Categories = {C1,…, Cn},api 间 最 短 距 离 标签 集合 Ln. 

输出 : 排名 最 高 的 一 个 子 图 . 

1.C= {C),...,C,} 

2.Sort C by degree , 按 每 个 功能 API 集合 的 平均 度数 值 从 高 到 低 排 序 并 重新 编号 
3.Beam <+ Top(k, api € C1,degree), 取 Cj 集合 中 前 k 个 度数 值 最 高 的 API 

4 for i — 2to n do 

5. newBeam = (Q] 建立 一 个 新 的 空 Beam 


13 


6. Map(newV,cost) = {@} 建立 Beam 向 cost 的 空 映射 
7. for each V € Beam do 

8 for each api, € C; do 

9 


if Vapi, € V (L (api,) N L (apie) rz Q) do 
dist(api,,api,y) 


10. delta — 5 icy AA A 

11. newV <- V U api, 

12. cost — cost + delta ,增加 该 结 点 后 子 图 的 总 的 代价 
13. Add(newV, newBeam), 将 结果 加 入 到 newBeam 中 
14. Add ({newV, cost} ,Map) ,建立 newV 与 cost 的 映射 
15. end if 

16. end for 

17. end for 


18. sort NewBeam by cost, 按 cost 从 低 到 高 排序 

19. Beam — Top(k,newV € newBeam,cost), 取 newBean 前 kk 个 代价 最 小 的 VV 
组 成 新 的 Beam 

20.end for 

21.return T'op(1,V € Beam,cost) 


针对 输入 的 候选 功能 API 集合 ， 本 文 首先 计算 每 个 集合 的 平均 度数 ， 并 按照 该 值 
从 高 到 低 的 顺序 进行 排序 。 随 后 ， 本 文 引 入 根 节 点 选择 优化 策略 选择 平均 度数 值 最 高 
的 集合 作为 起 始 集合 ， 旨 在 增加 根 节 点 与 其 他 节点 之 间 的 连接 可 能 性 ， 进 而 提升 子 图 
的 兼容 性 。 通 过 这 一 策略 ， 本 文 能 够 更 有 效 地 从 候选 API 中 筛选 出 关键 节点 ， 为 后 续 
构建 高 质量 子 图 奠定 坚实 基础 。 接 着 ， 从 该 集合 中 选取 度数 排名 前 位 的 节点 作为 起 
HA, HOPASBCK 代表 柱状 的 大 小 。 

在 算法 的 第 10 行 至 第 14 行 中 ,为 了 精确 计算 加 入 当前 节点 后 所 带 来 的 代价 变化 ， 
本 文 首先 采用 算法 1 来 确定 节点 之 间 的 距离 。 随 后 ， 为 了 提升 选择 高 连接 度 节点 的 概 
率 , 并 增强 节点 与 子 图 中 其 他 节点 的 连接 可 能 性 , 本 文 引 入 知识 图 谱 权 重 优化 策略 。 具 
体 而 言 ， 我 们 将 节点 间 的 权重 优化 为 节点 共同 出 现 频 次 的 倒数 除 以 两 个 节点 度 的 乘积 ， 
通过 这 样 的 处 理 ， 能 够 更 有 效 地 衡量 节点 间 的 相对 重要 性 ， 并 倾向 于 选择 那些 具有 高 
连接 度 的 节点 。 这 一 优化 策略 不 仅 有 助 于 构建 一 个 更 加 紧密 的 子 图 结构 ， 还 能 更 准确 
地 评估 每 次 添加 节点 对 子 图 构建 的 综合 影响 。 一 旦 代价 计算 完成 ,算法 将 生成 一 个 新 
的 子 图 ,并 将 其 加 入 到 候选 集合 中 ， 以 供 后 续 的 比较 和 选择 。 通 过 这 样 的 处 理 方式 , 我 
们 能 够 更 精准 地 控制 子 图 的 生成 过 程 ， 从 而 为 用 户 推荐 更 加 优质 的 API。 


然后 ， 在 算法 的 第 18 行 和 第 19 行 ， 本 文 依然 保留 候选 列表 中 排序 靠 前 的 k 个 结 
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果 ， 以 确保 搜索 的 高 效 性 最 后 ， 返 回 排名 最 高 的 子 图 作为 算法 的 输出 结 


3.2.3 子 图 的 扩展 生成 


本 文 利用 HL 算法 计算 距离 , 成功 简化 了 计算 过 程 并 提升 了 运算 速度 。 然而 , 需要 
特别 指出 的 是 ， 在 节点 选择 环节 ， 我 们 并 未 将 实际 存在 的 边 纳 和 考量， 导致 当 前 成 果 
仅 限 于 获取 子 图 的 顶点 集合 。 为 了 向 用 户 提供 更 加 兼容 的 AP 组 合 ， 我 们 必须 将 这 些 
孤立 的 节点 相互 连接 ， 形 成 一 个 连通 的 子 图 。 因 此 ， 我 们 接 下 来 的 工作 重心 将 是 从 已 
选 定 的 顶点 集 出 发 ,通过 逐步 扩展 ， 构 建 出 一 个 完整 旦 连通 的 子 图 结构 。 这 将 有 助 于 
确保 API 之 间 的 顺畅 协作 ， 实 现 系 统 的 高 效 运 行 。 具 体 如 算法 4 所 示 。 

算法 4: 子 图 扩展 生成 算法 

输入 : 关键 APT 节 点 集合 让 ，api 间 最 短 距离 标签 集合 L 

输出 : 最 小 斯 坦 纳 树 的 路 径 点 集合 


1: E — (Ø) 

2: E < prim(V) 输入 4P7 节 点 并 利用 Prim 算 法 找 出 子 图 的 关键 边 

3 : for each (s,t) € E do 

4 dist — 十 co 

5: for each A € L(s) N L(t) do 找 两 节点 间 最 短 距 离 所 经 过 的 中 间 节 点 
6 if dist > dist (s, h) + dist (t,h) do 

7 mid — h 

8: dist = dist (s, h) + dist (t, h) 

9 end if 

10: end for 

11: while spar # mid do 如 果 当 前 节点 不 为 中 间 节 点 则 遍历 节点 前 驱 
12 : S = S.par 

13 : V — V U (s) 将 当前 节点 至 中 间 节 点 最 短路 径 上 的 节点 放 入 V 
14: end while 

15: while tpar z middo 

16 t — t.par 

17 V —Vut(s) 

18 end while 

19 : end for 
20 : return sorted (V) 将 节点 集合 按照 节点 的 度 从 高 到 低 进行 排序 并 返回 
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针对 输入 的 关键 API 节点 集合 Y， 首 先 ， 我 们 通过 prim 算法 获得 了 子 图 的 关键 边 
RRE, RE, WEA E 中 的 每 条 边 进行 遍历 ,并 将 最 短 距离 dist 重 置 为 正 无 穷 大 ， 以 
确保 初始 状态 。 随 后 ， 我 们 聚焦 于 寻找 每 对 关键 点 s 和 t 的 标签 集合 L(s) 与 LO 的 交 
SE, 并 在 其 中 确定 两 节点 间 最 短路 径 上 的 中 间 节 点 h。 一旦 找到 符合 条 件 的 中 间 节 点 h 
立即 更 新 mid 为 h， 并 计算 s P| h 与 { 到 h 的 距离 之 和 ， 更 新 dist 值 。 之 后 ， 若 当前 节 
点 并 非 中 间 节 点 ， 则 进一步 遍历 其 前 驱 或 后 继 节 点 ， 将 当前 节点 至 中 间 节 点 最 短路 径 
上 的 关键 节点 补充 至 V 中 。 最 终 ， 返 回 构建 完成 的 路 径 点 集合 V 作为 算法 输出 ， 该 集 
合 包含 了 构建 最 短路 径 所 需 的 关键 节点 。 

最 终 ， 为 了 显著 增强 API 推荐 结果 与 用 户 需求 之 间 的 契合 度 ， 我 们 引入 了 一 种 基 
于 节点 度 的 先进 排序 算法 。 该 算法 精妙 地 依据 节点 的 度 ( 即 其 在 网 络 中 的 连通 性 ) 对 推 
荐 结果 进行 降序 排列 ， 确 保 那 些 与 用 户 需 求 高 度 相关 的 节点 能 够 优先 展示 给 用 户 。 这 
种 创新 的 排序 策略 不 仅 大 幅 提 升 了 推荐 结果 的 相关 性 ， 还 显著 优化 了 用 户 体验 ,使 用 
户 能 够 更 迅速 、 更 直接 地 找到 满足 其 特定 需求 的 API。 
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基于 上 述 方法 论 , 本 文 设计 并 实现 了 一 种 新 颖 的 基于 静态 中 心 标注 法 的 mashup 组 
合 推 荐 算法 FAR。 为 了 验证 所 提出 方法 的 有 效 性 与 优越 性 ， 本 文 设计 并 实施 了 一 系列 
实验 ， 旨 在 解答 以 下 两 个 核心 研究 问题 : 

研究 问题 一 : 本 文 所 提出 的 方法 是 否 能 够 高 效 且 精确 地 推荐 用 户 所 需 的 API? 

为 了 深入 探究 此 问题 , 本 文 首 先 利用 静态 中 心 标 注 法 构建 了 图 的 离线 索引 结构 。 随 
后 , 我 们 采用 经 过 优化 后 的 子 图 评价 标准 进行 Mashup 子 图 的 生成 ,并 巧妙 地 运用 柱状 
搜索 策略 提升 子 图 的 生成 效率 。 这 一 方法 的 核心 目标 在 于 有 效 解决 传统 Mashup 推荐 
结果 与 实际 使 用 场景 脱节 ， 以 及 子 图 搜索 空间 过 于 庞大 等 难题 ， 进 而 大 幅度 提升 推荐 
算法 的 精准 度 与 运行 效率 。 为 了 验证 这 一 方法 的 有 效 性 , 我 们 选取 了 Mashup 数据 集 进 
行 详尽 的 实验 验证 。 并 将 所 得 结果 与 前 沿 的 API 推荐 方法 进行 了 深入 细致 的 对 比分 析 。 

研究 问题 二 : 根 节 点 优化 策略 与 子 图 权重 优化 策略 在 mashup 推荐 领域 是 否 具 有 泛 
化 性 ? 

在 深入 探究 研究 问题 一 的 基础 上 ， 为 了 验证 优化 策略 的 泛 化 性 ， 我 们 将 根 节点 优 
化 策略 与 子 图 权重 优化 策略 应 用 于 现 有 的 子 图 搜索 算法 中 ， 通 过 实证 分 析 来 检验 其 在 
Mashup 推荐 领域 的 通用 性 。 这 一 验证 工作 不 仅 有 助 于 深入 理解 优化 策略 的 作用 机 制 ， 
还 能 为 Mashup 领域 的 知识 图 谱 生 成 与 子 图 搜索 提供 有 益 的 启示 ， 推 动 相关 技术 的 创 
新 与 发 展 。 


4.1 实验 设计 


本 文选 取 了 从 ProgrammableWeb Wii PERRY mashup 数据 集 作 为 实验 对 象 . 以 下 
是 实验 设计 的 详细 阐述 : 


4.1.1 数据 集 描述 


本 研究 所 采用 的 数据 集 源 自 ProgrammableWeb 的 历史 记录 , 涵盖 了 丰富 的 APP 及 
其 所 使 用 的 API 信息 。 具 体 而 言 ， 该 数据 集 包括 APP 的 名 称 、 实 现 的 功能 、 所 使 用 的 
API， 以 及 API 的 名 称 和 功能 等 关键 信息 。 此 mashup 数据 集 共 计 包 含 4870 个 APP 记 
3E, 与 之 相对 应 的 API 数据 集 则 包含 1233 个 API 记录 。mashup 与 APIs 数据 集 示例 如 
下 表 所 示 : 


表 4.1 mashup 数据 集 示 例 


APP 名 称 相关 APIs 功能 
Json API App Twitter/Analytics SEO Application Development/ 
Products 
WaifuAI Android WaifuAI Artificial Intelligence/ 
Chat/Machine Learning 
Page Experience Checker Google PageSpeed Insights SEO/Analytics/ 
Marketing/Search 
Lot Near You APP Google Maps/Google Chart/ SEO/Analytics/ 
eBay Product Services/Google Marketing/Search 
Geocoding 
Music on Tube Flickr/YouTube/Last.fm Music/Photos/Video 


464.2 APIs 数据 集 示例 


API 名 称 API 功能 

YouTube Video/Media 
Google Maps Mapping/Viewer 
Twitter Social/Blogging 


通过 这 一 全 面 的 数据 集 ， 本 文 旨 在 深入 探究 mashup 组 合 推荐 算法 的 有 效 性 和 性 
能 ， 以 期 为 用 户 提供 更 为 精准 、 高 效 的 APL 推荐 服务 . 在 实验 过 程 中 ， 本 文 将 充分 利用 
数据 集中 的 各 项 信息 ， 确 保 实 验 结果 的 客观 性 和 准确 性 。 


412 评估 方法 

为 了 全 面 评估 本 文 所 提出 方法 的 实际 效果 ， 本 文 首先 对 柱状 搜索 中 使 用 不 同 的 k 
值 进行 实验 。 实 验 中 ， 本 文 以 命中 率 和 运行 时 间作 为 评判 标准 ， 细 致 地 选取 并 测试 了 
多 个 k 值 ， 旨 在 找到 最 优 的 k 值 设置 ， 以 确保 推荐 算 潜在 准确 性 和 效率 上 达到 最 佳 平 
fi. 

鉴于 目前 Web API 的 推荐 领域 尚 缺 乏 通用 的 基准 ， 我 们 进一步 采用 了 一 些 具有 代 
表 性 的 方法 作为 基线 ， 以 此 验证 我 们 提出 的 方法 的 有 效 性 。 
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1) Random: 该 方法 从 功能 所 对 应 的 API 集合 中 随机 选择 一 组 共同 覆盖 查询 关键 
词 的 节点 ， 然 后 找到 最 小 生成 树 将 所 选 节点 与 所 有 生成 树 中 节点 数 最 少 的 节点 连接 起 
来 

2) Greedy: 该 方法 从 功能 所 对 应 的 API 集合 中 随机 选择 一 组 共同 覆盖 查询 关键 字 
的 节点 。 然 后 ， 它 将 这 些 节点 作为 初始 根 节点 ， 并 不 断 生 长 树 ， 直 到 所 选 节点 互 连 。 当 
树 生长 时 ， 应 用 贪 焚 启 发 式 ， 以 便 首先 选择 包含 最 多 查询 关键 字 的 邻居 。 

3) KeyKG"! : 它 是 一 种 针对 图 结构 数据 的 关键 词 搜 索 算法 , 它 基于 群 斯 坦 纳 树 实 
现 语 义 搜索 ， 并 借助 高 效 的 近似 算法 和 HL 算法 结构 ， 在 毫秒 时 间 内 为 大 型 知识 图 谱 
提供 可 靠 且 质量 上 乘 的 搜索 结 

4) MTEMP?!: 它 是 一 个 基于 多 模型 融合 和 多 任务 学 习 的 神经 网 络 框架 。 MTFM 使 
用 卷 积 神经 网 络 生 成 需求 表示 ， 并 引入 功能 交互 组 件 来 对 mashup 和 Web API 之 间 的 
功能 交互 进行 建 模 ， 以 预测 候选 API。 为 了 确保 MTFM 模型 在 精准 度 与 实用 性 之 间 达 
到 平衡 ， 本 研究 仅 选取 了 模型 推荐 结果 的 前 十 位 进行 性 能 评估 和 比较 。 

此 外 ， 为 了 进一步 验证 优化 策略 的 有 效 性 ， 本 文 将 根 节点 优化 和 子 图 权重 优化 策 
略 应 用 于 KeyKG 算法 中 。 通 过 对 比 实验 ， 本 文 细 致 地 比较 了 这 些 优 化 策略 在 KeyKG 
算法 中 的 表现 ， 并 对 其 效果 进行 了 全 面 的 分 析 和 讨论 。 


4.1.3 ”评估 指标 


为 了 全 面 且 精准 地 评估 APIs 推荐 结果 的 效果 ， 本 文 引 入 了 平均 运行 时 间 、 推 荐 节 
点 数 、 平 均 精 确 度 (MP)、 平 均 召 回 率 (MR)、 归 一 化 折 损 累计 增益 (NDCG) 指标 作 
为 度量 标准 。 

1) 平均 运行 时 间 : 为 了 精确 评估 算 法 在 运行 效率 方面 的 性 能 ， 本 研究 将 算法 在 处 
理应 用 开发 者 不 同 数量 的 关键 词 查询 时 所 需 的 平均 处 理 时 间作 为 核心 评价 指标 。 该 指 
标 不 仅 直观 地 反映 了 算法 在 处 理 大 规模 数据 集 时 的 效能 ， 更 为 算法 的 优化 和 深入 改进 
提供 了 坚实 的 数据 基础 。 

在 确保 API 间 兼 容 性 达到 较 高 水 准 的 前 提 下 ， 我 们 特别 强调 运行 时 间 的 重要 
因为 用 户 的 核心 需求 在 于 迅速 获取 满足 软件 功能 需求 的 API 组 合 推荐 结果 ， 而 非 仅 仅 
使 用 与 其 他 应 用 相似 的 API。 因此, 通过 这 一 指标 的 考量 , 我 们 能 够 更 好 地 满足 用 户 的 
实际 需求 ， 提 升 算法 的 实际 应 用 价值 。 

2) 推荐 节点 数 : 指标 能 够 反映 出 推荐 系统 在 处 理 过 程 中 所 涉及 的 API 节点 数量 。 
当 推 荐 系统 返回 的 节点 数量 较 少时 ， 这 通常 意味 着 系统 能 够 更 专注 、 更 精准 地 为 用 户 
推荐 符合 其 需求 的 API。 这 样 做 不 仅 有 助 于 减少 用 户 在 选择 过 程 中 的 困惑 和 犹 驳 ， 还 
能 使 用 户 更 加 迅速 地 找到 最 符合 其 需求 的 选项 。 
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3) 平均 精确 度 (MP): MP 指标 是 用 于 全 面 衡量 算法 在 推荐 API 组合 时 整体 性 能 的 
关键 标准 。 具 体 而 言 ， 它 计算 的 是 模型 推荐 的 API 组 合 (RLI) 5 APP 实际 使 用 的 API 
(RLapp) 之 间 的 平均 精度 。 这 一 指标 直接 反映 了 推荐 算法 在 为 用 户 提供 推荐 时 ， 其 推 
荐 内 容 与 用 户 实际 需求 之 间 的 吻合 程度 。 通 过 MP 指标 的 衡量 ， 我 们 能 够 更 准确 地 了 
解 推荐 算法 在 为 用 户 提供 API 组 合 时 的 表现 ， 并 据 此 对 算法 进行 有 针对 性 的 优化 ， 以 
提高 推荐 的 精准 度 和 用 户 满意 度 。 

鉴于 不 同 数据 集会 对 结果 产生 的 显著 影响 ， 为 确保 算法 性 能 评估 的 准确 性 和 客观 
性 ， 避 人 免 随 机 选择 少量 数据 集 可 能 带 来 的 偏差 ， 同 时 验证 本 算法 的 运行 效率 ， 本 文 特 
选用 全 面 的 mashup 数据 集 进行 深入 的 算法 验证 ， 并 据 此 计算 MP. 


1 = |RL,| A|RLapp| 
A o [RIO 

4) 平均 召回 率 (MR): MR 是 衡量 推荐 算法 在 多 个 mashup 服务 组 合 上 整体 性 能 的 
指标 ， 通 过 计算 召回 率 的 平均 值 来 评估 算法 在 多 个 服务 组 合 上 的 综合 表现 。 与 MP 不 
[E], MR 侧重 于 评估 算法 在 覆盖 用 户 实际 需求 上 的 能 力 。 采 用 MR 作为 评估 标准 ， 能 确 
保 结果 的 客观 性 和 准确 性 ， 为 算法 优化 提供 依据 。 此 外 ， 为 了 保障 评估 结果 的 全 面 性 
和 客观 性 , 我 们 在 完整 的 mashup 数据 集 上 进行 了 详尽 的 实验 ， 从 而 确保 所 得 结论 的 可 


ETE. 


K |RL|[n|RL 


1 agg] 
MR-2— 
2» |RL 


i-i il 


5) 归 一 化 折 损 累计 增益 (NDCG): 是 一 种 专 为 评估 推荐 结果 排序 质量 而 设计 的 指 
标 。 它 综合 考虑 了 API 推荐 结果 与 用 户 需求 之 间 的 相关 性 以 及 这 些 结果 在 排序 列表 中 
的 位 置 ， 从 而 全 面 、 准 确 地 评估 排序 算法 的 性 能 。rel; = 1/0 表示 第 i 个 Web API 是 否 
真正 与 当前 的 mashup 相关 。DCG 从 结果 列表 的 项 部 累积 到 底部 ， 较 低 排名 的 每 个 结 
果 的 增益 会 进行 折 损 。 


N 


rel. 
DCG = rel, + — — 
i 3 log,(i + 1) 

IRL app reli 


IDCG = 一 一 一 一 ， 
2. log; + 1) 
DCG 


NDCG = . 
IDCG 
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综 上 所 述 ， 通 过 采用 平均 运行 时 间 、 推 荐 节点 数 、MR、MP、NDCG 作为 评估 指 
标 ， 本 文 能 够 全 面 、 客 观 地 评估 API 组 合 推荐 结果 的 准确 性 和 算法 的 运行 效率 ， 为 后 
续 的 研究 和 应 用 提供 坚实 的 基础 。 


42 实验 结果 
4.2.1 ”柱状 搜索 k 值 选 取 

针对 mashup 数据 集 ， 本 文 深入 探讨 了 不 同 k 值 对 柱状 搜索 算法 效果 的 影响 。 经 过 
细致 的 实验 对 比 和 分 析 ， 我 们 观察 到 K 值 的 变化 对 精准 度 和 运行 时 间 均 产生 了 显著 影 
啊 。 具 体 实 验 结 果 如 下 表 所 示 ， 当 K 值 从 1 增加 到 5 时 ， 精准 度 呈 现 先 上 升 后 下 降 的 
趋势 ， 而 运行 时 间 则 持续 增加 。 

值得 注意 的 是 ， 实 验 环境 对 算法 的 性 能 表现 也 有 一 定 影 响 。 为 了 确保 实验 的 公正 
性 和 可 重复 性 ， 本 文 在 Windows 10 系统 、 订 -1065G7 CPU, 16GB 内 存 以 及 Java 1.8 版 
本 的 环境 下 进行 了 所 有 实验 . 这 样 的 实验 配置 能 够 为 我 们 提供 一 个 稳定 且 可 靠 的 性 能 
评估 基础 。 


表 4.3 ”不同 KK 值 实验 结果 


K 值 选取 精准 度 (%) 整体 运行 时 间 CR) 
1 29.49 0.782 
2 30.36 1.010 
3 28.08 1.249 
4 28.00 1.608 
5 21:22 1.918 


为 了 平衡 精准 度 和 运行 时 间 ， 本 文选 择 k 值 为 2 进行 下 一 步 实验 。 这 一 选择 基于 
以 下 考虑 : 相 较 于 k=1，k=2 时 的 命中 率 略 有 提升 ， 虽 然 运 行 时 间 有 所 增加 ， 但 仍 处 于 
可 接受 范围 内 ; 而 当 k 值 继续 增 大 时 ， 精 准 度 开 始 下 降 ， 且 运行 时 间 的 增长 也 更 为 明 
显 。 因此， 本 文 认为 k=2 是 一 个 较为 合理 的 折 中 选择 ， 能 够 在 保证 一 定 精准 度 的 同时 ， 
维持 相对 较 高 的 运行 效率 。 

这 一 结论 为 我 们 后 续 的 实验 和 研究 提供 了 重要 参考 ， 有 助 于 进一步 优化 柱状 搜索 
算法 在 mashup 数据 集 上 的 应 用 效果 。 
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4.1 平均 运行 时 间 


42.2 ”平均 运行 时 间 比 较 


接 下 来 ， 我们 针对 五 种 不 同 算法 的 效率 进行 了 详尽 的 比较 ， 通 过 衡量 它们 在 处 理 
应 用 开发 者 不 同 数量 的 关键 词 查询 时 ， 找 到 合适 API 所 需 的 计算 时 间 来 进行 评估 ， 实 
验 结果 如 图 4.1 所 示 。 

实验 结果 表明 ，FAR 算法 在 响应 不 同 数量 的 关键 词 查询 以 找到 合适 API 时 ， 展 现 
出 显著 的 计算 时 间 优 势 。 从 平均 搜索 时 间 的 对 数值 (以 2 为 底 ) 来 看 ， 随 着 关键 词 个 数 
的 递增 , FAR 算法 的 运行 时 间 依 然 保持 在 较 低 水 平 , 明显 优 于 Random, Greedy, KeyKG 
和 MTFM 等 算法 。 

具体 而 言 ， 当 关键 词 个 数 为 2 IN, FAR 算法 的 平均 搜索 时 间 对 数值 约 为 -13， 这 远 
低 于 其 他 算法 。 即 便 在 关键 词 数量 增加 至 6 个 时 ，FAR 算法 的 平均 搜索 时 间 对 数值 哩 
有 上 升 , 但 仍 保持 在 -10 的 较 低 水 平 。 相 比 之 下 ，Random 和 Greedy 算法 在 关键 词 数 量 
增加 时 ， 搜 索 时 间 显 著 增长 。 

在 实验 中 ，MTFM 算法 作为 一 种 神经 网 络 方法 ， 其 搜索 时 间 虽 相对 稳定 ， 但 在 性 
fE EAH miht F FAR 算法 。 与 此 同时 ， 尽 管 KeyKG 算法 亦 展现 出 不 俗 的 性 能 ， 但 
在 各 类 关键 词 数量 的 测试 中 ，FAR 算法 均 展现 出 更 低 的 搜索 时 间 ， 这 充分 证 明了 FAR 
算法 在 处 理 不 同 数量 关键 词 查询 时 具有 更 高 的 效率 。 

综 上 所 述 ，FAR 算法 在 时 间 效 率 上 占据 了 显著 优势 。 不 论 是 在 处 理 少量 还 是 大 规 
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图 4.2 推荐 节点 数 


模 的 关键 词 查询 时 ，FAR 算法 均 能 迅速 而 准确 地 找到 解决 方案 ， 这 一 特性 对 于 提升 应 
用 开发 的 效率 以 及 优化 用 户 体验 而 言 ， 具 有 不 可 忽视 的 实际 价值 。 


4.2.3 推荐 节点 数 比 较 

针对 五 种 不 同 算法 在 推荐 结果 数量 方面 的 性 能 ， 我 们 进行 了 详尽 且 系 统 的 比较 分 
Vr. 在 评估 这些 算法 处 理 不 同 数量 的 关键 词 查询 时 , 我 们 观察 到 了 以 下 显著 的 规律 , SE 
验 结果 如 图 4.2 所 示 。 

首先 ， 根 据 实 验 数据 显示 ， 随 着 关键 词 数量 的 增加 ， 所 有 算法 所 需 的 平均 节点 数 
都 呈 上 升 趋势 。 然 而 ， 在 这 一 普 所 趋势 中 ，FAR 算法 凭借 其 稳定 的 低 节 点 数 表现 突出 。 
具体 而 言 ， 当 关键 词 数量 从 2 增加 到 6 mp. FAR 算法 的 平均 节点 数 仅 从 约 2 个 增加 到 
约 5 个 ， 展现 出 相对 较 小 的 增长 幅度 。 

相 比 之 下 ，Random 算法 和 Greedy 算法 在 关键 词 数量 较 少 时 节点 数 相对 较 低 ， 但 
随 着 关键 词 数 量 逐 渐 增 加 ， 它 们 的 节点 数 增长 趋势 更 为 显著 。 特 别 是 当 关 键 词 数量 达 
到 6 时 ， 这 两 种 算法 的 平均 节点 数 已 经 超过 了 FAR 算法 的 两 倍 ， 这 显示 了 FAR 算法 
在 关键 词 数量 增加 时 的 高 效 性 和 经 济 性 。 

由 于 MTFM 算法 在 推荐 API 之 前 需要 预 设 生 成 API 的 数量 ,因此 , 无 论 关 键 词 数 
量 如 何 变 化 ， 其 节点 数 均 保持 恒定 。 这 一 特性 表明 MTFM 算法 在 处 理 不 同 数量 的 关键 
词 时 可 能 缺乏 必要 的 灵活 性 。 相 比 之 下 ，FAR 算法 能 够 根据 关键 词 数量 的 动态 变化 自 
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图 4.3 “平均 精确 度 


适应 地 调整 所 需 节点 数 ， 从 而 在 保持 较 低 节点 数 的 同时 ， 实 现 更 好 的 推荐 效果 。 
KeyKG 算法 在 各 个 关键 词 数量 下 展现 出 了 最 低 的 推荐 API 个 数 . 尽 管 KeyKG 算法 
在 关键 词 数 量 较 少时 表现 出 色 ， 但 随 着 关键 词 数 量 的 增加 ， 其 节点 数 增长 相 较 于 FAR 
算法 呈现 出 明显 的 上 升 趋势 。 
综 上 所 述 ，FAR 算法 在 关键 词 数量 增加 时 能 够 用 较 少 的 节点 获取 更 好 的 结果 ， 彰 
显 了 其 在 节点 利用 效率 方面 的 优势 。 因 此 ， 在 处 理 涉及 大 量 关键 词 的 任务 时 ，FAR 算 
法 是 一 个 更 为 高 效 和 经 济 的 选择 。 


4.2.4 ”平均 精确 度 比较 

接着 ， 我 们 对 五 种 不 同 算法 在 平均 精确 度 指 标 上 的 性 能 进行 了 比较 分 析 。 鉴 于 平 
均 精 确 度 的 计算 过 程 中 ， 数 据 集 的 选择 对 算法 结果 有 着 显著 的 影响 ， 为 确保 实验 结果 
的 客观 性 和 准确 性 ， 我 们 采取 了 全 面 的 数据 集 覆 盖 策 略 ， 即 选取 了 所 有 可 用 数据 集 进 
行 严 格 的 实验 验证 。 通 过 这 一 方法 ， 我 们 有 效 地 避免 了 因 随 机 选取 实验 数据 集 而 可 能 
引入 的 偏差 。 实 验 结果 如 图 4.3 所 示 。 

其 中 ，Random 算法 因 其 内 在 的 随机 性 ， 导 致 推荐 的 精确 度 相对 较 低 。 具 体 而 言 ， 
其 MP 值 仅 为 14.34%， 表 明 在 随机 选择 推荐 结果 时 ， 正 确 推 荐 的 API 数量 较 少 ， 效 果 
SKAR. 

Greedy 算法 相 较 于 Random 算法 , 在 一 定 程 度 上 进行 了 优化 。 它 通过 贪心 策略 尝试 
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图 4.4 平均 召回 率 


选择 当前 最 优 的 解 , 但 这 种 策略 受 限 于 局 部 最 优 解 的 约束 ,使 得 其 MP 值 提升 至 16.71%， 
虽然 有 所 提升 ， 但 提升 幅度 相对 有 限 。 

然而 ，MTFM 算法 在 应 用 中 遇 到 了 一 个 显著 的 问题 : 由 于 其 采用 每 次 固定 推荐 10 
个 API 的 策略 ， 而 实际 应 用 场景 中 所 需 API 的 数量 往往 少 于 此 数 ， 这 导致 了 正确 推荐 
的 API 数量 在 总 推荐 数 中 占 比 偏 低 。 因 此 ，MTFM 算法 的 仅 为 8.42% ， 在 五 种 算法 中 
表现 最 低 。 

KeyKG 算法 通过 引入 Hub Label 的 概念 ， 能 够 高 效 地 进行 全 局 最 小 斯 坦 纳 树 的 搜 
索 ， 有 效 提 升 了 推荐 的 准确 性 ， 其 平均 精确 度 达 到 了 22.37%， 显 示 出 其 在 推荐 系统 领 
域 的 良好 性 能 。 

在 众多 算法 中 ，FAR 算法 的 表现 尤为 突出 。 该 算法 凭借 其 独特 的 子 图 评价 方法 和 
高 效 的 搜索 优化 策略 ， 显 著 提 升 了 推荐 的 精确 度 。 实 验 结果 显示 ，FAR 算法 的 平均 精 
确 度 高 达 30.36%， 远 超 其 他 算法 。 


4.2.5 平均 召回 率 比较 
随后 ， 我 们 进一步 对 五 种 不 同 算法 在 平均 召回 率 指标 下 的 性 能 进行 了 细致 的 分 析 。 
为 确保 评 信 结 果 的 客观 性 和 可 靠 性 ， 我 们 依然 沿用 了 全 面 的 数据 集 覆 盖 策略 ， 对 所 有 
可 用 的 数据 集 进行 了 详尽 的 实验 验证 。 这 些 实验 结果 通过 图 4.4 进行 了 直观 的 展示 , 为 
我 们 提供 了 各 算法 在 召回 率 方面 的 具体 表现 。 
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在 平均 召回 率 指 标的 对 比 中 ， 我 们 发 现 Random 算法 的 召回 率 达 到 了 40.99%, iX 
在 一 定 程度 上 体现 了 其 随机 性 的 优势 ， 能 够 在 一 定 程 度 上 履 盖 到 较 多 的 相关 项 目 。 然 
m, Greedy 算法 的 召回 率 略 低 于 Random 算法 ， 为 38.64% ， 这 可 能 是 由 于 其 贪心 策略 
在 追求 局 部 最 优 时 牺牲 了 部 分 全 局 召回 率 。 

值得 注意 的 是 ，MTFM 算法 在 平均 召回 率 上 取得 了 47.64% 的 显著 成 绩 。 这 一 成 
果 主 要 归 因 于 其 每 次 固定 推荐 10 个 API 的 策略 。 尽 管 这 一 策略 可 能 在 一 定 程度 上 牺 
牲 了 推荐 的 精确 度 ， 因 为 它 不 总 是 针对 用 户 需求 精准 地 推荐 API， 但 这 种 策略 确保 了 
MTFM 算法 在 广泛 的 API 推荐 中 能 够 覆盖 更 多 相关 的 选项 ， 从 而 增加 了 用 户 找到 所 需 
API 的 可 能 性 。 

KeyKG 算法 在 平均 召回 率 方面 的 表现 稍 显 不 足 ， 仪 达到 了 33.38%。 这 一 结果 主要 
归 因 于 其 采用 的 近似 最 小 斯 坦 纳 树 策略 。 尽 管 该 策略 确保 了 节点 间 权重 的 最 小 化 ， 但 
所 选 节 点 可 能 并 不 完全 符合 用 户 的 实际 需求 ， 从 而 影响 了 算法 的 召回 率 。 

在 所 有 评估 的 算法 中 ,FAR 算 法 再 次 凸显 了 其 卓越 性 能 。 其 平均 召回 率 高 达 49.67%， 
显著 超越 了 其 他 算法 。 这 一 结果 不 仅 证 明了 FAR 算法 在 推荐 系统 领域 中 的 高 精度 特性 ， 
同时 也 展现 了 其 在 召回 率 方面 的 出 色 能 


4.2.6“ 归 一 化 折扣 累积 增益 比较 


最 后 ， 我 们 再 次 采用 全 面 的 数据 集 履 盖 策 略 ， 对 五 种 不 同 算法 在 NDCG 指标 下 的 
性 能 进行 了 详尽 的 分 析 。 实 验 结果 如 图 4.5 所 示 。 

在 NDCG 的 对 比 中 ，Random 算法 取得 了 29.7896 的 得 分 ， 这 揭示 了 其 随机 排序 的 
方式 在 捕捉 推荐 结果 与 用 户 偏 好 相关 性 方面 的 局 限 性 。 然 而 ，Greedy 算法 在 NDCG 指 
标 上 有 所 提升 ， 达 到 了 34.36%， 这 主要 得 益 于 其 贪心 策略 ， 该 策略 在 每 次 选择 时 都 倾 
向 于 选取 当前 最 优 的 节点 ， 从 而 在 一 定 程度 上 增强 了 推荐 结果 与 用 户 偏好 的 相关 性 。 

尽管 KeyKG 算法 在 NDCG 上 取得 了 36.5196 的 得 分 ， 较 之 前 两 种 算法 有 所 提升 ， 
但 这 一 结果 仍 受到 一 定 限制 。KeyKG 算法 在 搜索 策略 上 的 优势 使 得 推荐 结果 的 精确 度 
得 以 提升 ， 然 而 ， 由 于 缺乏 有 效 的 排序 策略 SEGUE NDCG 这 一 同时 考虑 相关 性 和 
排序 质量 的 指标 上 表现 相对 较 低 。 

值得 注意 的 是 ，MTFM 算法 在 NDCG 评估 中 取得 了 56.33% 的 显著 成 绩 。 这 一 优 
异 表现 主要 归功 于 其 独特 的 多 任务 学 习 与 特征 学 习 策 略 。MTFM 算法 通过 整合 不 同 任 
务 的 信息 和 特征 ， 对 推荐 结果 进行 排序 ， 确 保 它 们 按照 与 关键 词 的 相关 性 进行 排列 输 
出 。 因 此 , 在 NDCG 这 一 强调 排序 位 置 与 项 目 相 关 性 的 指标 上 , MTFM 算法 有 效 地 提 
升 了 排序 结果 与 用 户 偏好 的 匹配 度 。 

在 所 有 算法 中 ，FAR 算法 再 次 凭借 其 卓越 的 性 能 脱 亲 而 出 。FAR 算法 考虑 了 节点 
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图 4.5 NDCG 比较 


之 间 的 连通 性 ， 通 过 高 效 的 策略 对 每 个 节点 的 连通 性 进行 评估 和 排序 ， 并 在 输出 推荐 
时 优先 推荐 那些 重要 性 更 高 的 节点 。 这 一 策略 使 得 FAR 算法 在 NDCG 评 佑 中 取得 了 
高 达 57.60% 的 得 分 ， 获 得 了 最 优 的 结果 ,证 明了 其 在 推荐 系统 领域 的 出 色 表 现 。 

这 一 结果 不 仅 证 实 了 FAR 算法 在 推荐 系统 领域 中 的 高 精确 度 ， 也 凸显 了 其 在 排序 
结果 相关 性 方面 的 优异 性 能 。 这 些 显 著 的 性 能 提升 不 仅 为 FAR 算法 在 推荐 系统 领域 的 
应 用 提供 了 强 有 力 的 支撑 ， 也 为 后 续 推 荐 算法 的 研究 与 开发 提供 了 宝贵 的 参考 和 启示 。 


4.2.7 ”实验 结果 分 析 

实验 对 五 种 API 推荐 算法 进行 了 详尽 的 性 能 对 比 ， 通 过 量化 评估 这 些 算法 在 运行 
时 间 、 推 荐 节点 数 、 MP. MR 以 及 NDCG 等 多 维度 指标 上 的 表现 。 实 验 结果 显示 ，FAR 
算法 在 各 项 指标 上 均 展 现 出 显著 优势 ， 这 主要 得 益 于 其 独特 的 策略 组 合 ， 包 括 静 态 
心 标注 、 增 强 子 图 评估 以 及 创新 的 优化 策略 ， 这 些 策略 有 效 整 合 了 网 络 兼 容 性 和 节点 
重要 性 信息 。 

在 运算 效率 方面 ，FAR 算法 利用 了 中 心 标注 法 ， 显 著 优化 了 寻找 两 节点 间 最 短路 
径 的 时 间 成 本 。 与 KeyKG 算法 相 比 ，FAR 通过 柱状 搜索 策略 更 有 效 地 缩减 了 宛 余 的 
搜索 空间 ， 在 应 对 大 量 API 推荐 请 求 时 展现 出 了 卓越 的 效率 。 相 较 之 下 ，MTFM 算法 
作为 深度 学 习 算 法 ， 由 于 其 计算 复杂 度 较 高 ， 导 致 处 理 任务 时 所 需 时 间 相 对 较 长 ， 而 
Random 和 Greedy 算法 作为 传统 的 动态 规划 方法 ， 在 处 理 大 规模 搜索 空间 时 ， 由 于 子 
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树 扩展 带 来 的 计算 负担 较 重 ， 因 此 其 运行 效率 较 低 。 

在 推荐 节点 数 方 面 ，FAR 算法 以 提高 命中 率 为 核心 目标 , 它 倾 向 于 搜索 连通 性 高 、 
实用 性 更 强 的 节点 ， 而 非 单纯 追求 整体 兼容 性 最 高 的 子 树 结构 。 因 此 ， 相 较 于 KeyKG 
算法 ，FAR 算法 的 推荐 节点 数 有 所 增加 ， 以 更 好 地 满足 实际 应 用 中 的 需求 。MTFM 算 
法 作为 一 种 深度 学 习 算法 ， 在 推荐 节点 数 方面 需要 人 为 规定 输出 的 数量 ， 因 此 其 结 
数量 相对 稳定 ， 受 算法 自身 特性 影响 较 小 。 然 而 ，Random 和 Greedy 算法 在 推荐 节点 
数 方 面 则 面临 挑战 。 由 于 初始 节点 选取 策略 的 不 佳 ， 这 两 种 算法 往往 难以 选取 到 高 兼 
容 性 的 初始 点 ， 这 导致 在 后 续 的 扩展 过 程 中 ， 生 成 的 子 树 节点 数量 过 多 ， 既 增加 了 计 
算 负担 ， 也 可 能 降低 了 推荐 结果 的 准确 性 和 实用 性 。 

在 召回 率 与 准确 率 方面 ，FAR 算法 充分 利用 了 网 络 兼容 性 和 节点 连通 性 的 信息 。 
它 考 虑 的 是 所 有 节点 间 的 权重 ， 而 非 仅 限于 根 节点 到 其 他 节点 的 权重 。 这 种 策略 使 得 
所 选 子 图 的 节点 更 为 紧密 ， 整 体 兼 容 性 更 高 。 同 时 ，FAR 算法 倾向 于 选择 度数 更 大 的 
节点 ， 即 那些 与 其 他 API 兼容 度 更 高 且 使 用 频率 更 高 的 节点 。 此 外 ， 通 过 柱状 搜索 算 
YA, FAR 算 浴 能 够 精准 地 筛选 出 前 上 个 最 优 结 果 ， 有 效 避 免 了 过 分 强调 API 间 兼 容 性 
而 忽视 命中 率 的 倾向 。 这些 策略 确保 了 FAR 算法 所 推荐 的 API 不仅 与 用 户 需求 高 度 相 
关 ， 而 且 在 实际 应 用 中 具有 较 高 的 实用 性 和 通用 性 。 

相 较 而 言 ，KeyKG 算法 在 构建 子 图 时 更 注重 根 节 点 与 子 图 其 他 节点 的 距离 ， 并 倾 
向 于 用 较 少 的 API 来 覆盖 APP 的 功能 以 追求 整体 最 高 的 兼容 性 。 然 而 ， 这 种 策略 可 能 
忽略 了 API 在 实际 应 用 中 的 使 用 频率 和 重要 性 ， 从 而 导致 推荐 的 API 与 用 户 需 求 不 完 
全 匹配 。MTFM 算法 作为 一 种 基于 节点 特征 的 推荐 算法 ， 在 推荐 过 程 中 忽略 了 网 络 的 
兼容 性 信息 。 该 算法 仅 依赖 节点 特征 进行 推荐 ， 并 倾向 于 推荐 大 量 节 点 ， 导 致 其 具有 
较 高 的 准确 率 但 召回 率 较 低 。 相 比 之 下 ，Random 和 Greedy 算法 在 功能 集合 所 依赖 的 
API 选择 上 存在 随机 抽取 的 情况 ， 缺 乏 对 网 络 兼容 性 的 系统 考量 。 这 种 随机 性 导致 其 
在 推荐 的 精确 性 方面 存在 不 足 ， 难 以 提供 满足 特定 需求 的 精准 推荐 结 

在 NDCG 方面 ，FAR 算法 表现 出 色 。 这 是 因为 它 整 合 了 节点 信息 ， 并 根据 节点 连 
通 性 对 输出 结果 进行 排序 ， 从 而 生成 高 质量 的 推荐 。 类 似 地 ，MTFM 算法 也 取得 了 较 
高 的 NDCG 分 数 ， 这 得 益 于 其 利用 API 特征 与 用 户 需 求 之 间 相 似 性 的 度量 方式 。 相 比 
之 下 ，KeyKG、Random 和 Greedy 算法 缺乏 针对 NDCG 指标 优化 的 策略 ， 因 此 表现 不 
f£. 


4.2.8 优化 策略 泛 化 性 分 析 


为 了 探究 根 节 点 优化 策略 和 子 图 权重 优化 策略 在 Mashup 推荐 领域 的 泛 化 能 力 , 我 
们 基于 完整 数据 集 对 KeyKG 算法 进行 了 扩展 ， 并 引入 上 述 两 种 优化 策略 。 通 过 一 系列 
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性 能 指标 的 评估 ， 验 证 策略 的 有 效 性 ， 结 果 如 下 表 所 示 。 


表 4.4 KeyKG 模型 与 策略 实验 结果 


模型 运行 时 间 ”节点 数 MP(%) MR(%) NDCG 
KeyKG 原 算 法 5.61 Fb 2.60 2237 33.38 0.36 
根 节点 优化 5.36 秒 2.63 22.61 34.17 0.37 
子 图 权重 优化 5.96 秒 2.66 23.20 35.47 0.38 


根 节 点 优化 + 子 图 权重 优化 6.99 Fb 2.70 23.20 35.96 0.39 


首先 , 我 们 评估 了 根 节点 优化 策略 对 KeyKG 算法 的 影响 。 实 验 结果 表明 ， 实 施 根 
节点 优化 策略 后 ， 算 法 的 整体 运行 时 间 有 所 减少 。 同 时 ， 我们 也 注意 到 平均 节点 数 略 
有 增加 ， 这 表明 优化 后 的 算法 在 构建 子 图 时 能 够 覆盖 更 多 相关 联 的 节点 。 在 性 能 方面 ， 
MP, MR 和 NDCG 等 关键 指标 均 有 所 提升 , 这 进一步 证 明了 根 节点 优化 策略 的 有 效 性 。 

根 节点 优化 策略 的 核心 在 于 , 它 在 进行 搜索 之 前 会 根据 节点 的 平均 度数 对 功能 API 
集合 进行 细致 的 排序 ， 优 先 选 择 度数 高 的 节点 作为 子 图 的 根 节 点 。 这 种 策略 的 优势 在 
于 ， 它 不 仅 能 增强 根 节点 与 后 续 加 入 节点 的 兼容 性 ， 还 能 确保 搜索 过 程 从 一 开始 就 聚 
焦 于 那些 高 度 相 关 且 被 广泛 使 用 的 API， 从 而 有 效 提升 搜索 的 命中 率 。 

随后 ， 我 们 分 析 了 子 图 权重 优化 策略 对 KeyKG 算法 的 影响 。 实 验 结果 显示 ,虽然 
应 用 该 策略 后 算法 的 整体 运行 时 间 略 有 增加 ， 但 鉴于 其 在 性 能 上 的 显著 提升 ， 这 一 时 
间 成 本 是 完全 值得 的 。 同 样 地 ， 平 均 节 点 数 的 增加 进一步 验证 了 优化 策略 在 拓展 搜索 
范围 方面 的 作用 。 在 性 能 方面 ， MP. MR 和 NDCG 指标 均 实 现 了 显著 的 提升 。 

在 计算 两 节点 间距 离 时 ， 通 过 除 以 两 点 度数 的 乘积 ， 这 一 策略 能 够 显著 提升 子 图 
整体 的 兼容 性 。 它 有 效 缓解 了 某 些 API 间距 离 较 近 但 却 难 以 与 其 他 API 联通 的 问题 ， 
确保 了 搜索 过 程 中 能 够 更 全 面 地 考虑 到 API 之 间 的 相互 关系 和 整体 网 络 结构 。 通 过 这 
种 优化 方式 ， 子 图 权重 策略 不 仅 增 强 了 搜索 的 广度 和 深度 ， 还 进一步 提高 了 算法 在 识 
别 高 质量 API 组 合 方面 的 能 力 ， 从 而 显著 提升 了 命中 率 和 搜索 结果 的 实用 性 。 

最 后 ， 我 们 探讨 了 将 根 节 点 优化 与 子 图 权重 优化 策略 结合 使 用 的 效果 。 实 验 结 
表明 , 结合 了 这 两 种 优化 策略 的 KeyKG 算法 在 性 能 上 达到 了 新 的 高 度 。 尽 管 整体 运行 
时 间 有 所 增加 , fH MP. MR 和 NDCG 等 指标 均 得 到 了 进一步 的 提升 , 这 充分 证 明了 两 
种 策略 结合 使 用 可 以 更 有 效 地 提升 KeyKG 算法 在 Mashup 推荐 领域 的 性 能 。 
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综 上 所 述 , 我 们 的 研究 验证 了 根 节 点 优化 策略 与 子 图 权重 优化 策略 在 KeyKG 算法 
中 的 显著 优化 作用 ， 并 证 明了 将 两 者 结合 使 用 能 够 进一步 提升 算法 的 性 能 。 这 些 结 
不 仅 证 实 了 两 种 优化 策略 的 谤 化 能 力 ， 也 为 后 续 在 Mashup 推荐 领域 的 研究 和 应 用 提 
供 了 有 价值 的 参考 。 具 体 而 言 ， 研 究 人 员 可 以 运用 根 节点 优化 策略 将 连通 性 大 的 API 
集合 中 的 节点 设 定 为 根 节点 ， 同 时 运用 子 图 权重 优化 策略 ， 将 API 构成 的 网 络 的 权重 
设置 为 API 在 Mashup 中 共同 出 现 的 次 数 与 两 API 节点 度 乘积 的 倒数 ， 以 实现 更 优质 
的 推荐 效果 。 
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第 五 章 ”总 结 与 展望 


Sie 总结 与 展望 


本 文 围绕 Mashup 推荐 领域 的 挑战 与 问题 ， 提 出 了 一 种 创新 的 基于 静态 中 心 标注 
法 的 Mashup 组 合 推荐 算法 FAR， 虽 在 提高 API 推荐 的 效率 和 准确 性 。 通 过 构建 高 效 
的 离线 索引 结构 和 融入 独特 的 子 图 评价 机 制 ， 算 法 显著 提升 了 推荐 系统 的 性 能 。 同 时 ， 
柱状 搜索 策略 的 运用 有 效 优化 了 子 图 生成 速度 ， 并 避免 了 过 度 强 调 API 兼容 性 而 忽略 
实用 性 的 问题 。 此 外 ， 本 文 还 提出 了 根 节 点 优化 策略 与 子 图 权重 优化 策略 ， 为 相关 领 


域 的 研究 提供 了 有 益 的 启示 。 


尽管 本 文 提出 的 算法 在 性 能 上 取得 了 显著 的 提升 ， 但 仍 有 进一步 优化 的 空间 。 例 
如 ， 可 以 考虑 将 动态 信息 纳入 算法 中 ， 以 增强 推荐 结果 的 实时 性 。 此 外 ， 探 索 更 为 高 


效 的 剪 极 策 略 也 是 提升 算法 运行 效率 的 重 


途径 。 在 未 来 的 工作 中 ， 我 们 将 继续 深入 


研究 ， 以 期 不 断 优 化 算法 性 能 ， 提 升 其 实用 性 ， 为 用 户 提供 更 加 高 效 、 精 准 的 API 推 


存 服务 。 
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